中文的csv文件的编码改成utf

您所在的位置:网站首页 vba读取csv文件 ansi utf 中文的csv文件的编码改成utf

中文的csv文件的编码改成utf

2023-07-16 16:52| 来源: 网络整理| 查看: 265

直奔主题:把包含中文的csv文件的编码改成utf-8的方法:

https://stackoverflow.com/questions/191359/how-to-convert-a-file-to-utf-8-in-python

 

啰嗦几句:

在用pandas读取hive导出的csv文件时,经常会遇到类似UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12这样的问题,这种问题是因为导出的csv文件包含中文,且这些中文的编码不是gbk,直接用excel打开这些文件还会出现乱码,但用记事本打开这些csv则正常显示,然后用记事本另存为UTF-8之后,用excel打开也能够正常显示,并且用pandas读取时指明encoding='utf-8'也能正常读取了。如果读取批量的csv时,或者csv的行数达到数百万时,就不能通过记事本另存为来更改encoding了,那应该怎么做来保证pandas能正常读取这些csv呢?

 

1.读取时不加encoding参数,则默认使用gbk编码来读取数据源文件,即默认数据源文件的编码为gbk:

import pandas as pd df


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3